查看原文
其他

智源「悟道3.0」Emu模型开源,「多模态-to-多模态」全能高手

智源研究院 智源研究院 2023-07-27


首个打通从多模态输入到多模态输出的「全能高手」统一多模态预训练模型 Emu 开源,来自智源研究院「悟道·视界」研究团队。


超越了此前 DeepMind 的多模态大模型 Flamingo,Emu 刷新8项性能指标;并且模型能力覆盖图像与文本的生成及视频理解,更通用,能完成任意图生文以及文生图的多模态任务。


这一突破来自于 Emu 创造性地建立了多模态统一学习框架与视频数据的大量采用,最终得以实现对任意形式的多模态的上下文序列进行图文任意模态的补全,即对于任意模态进行下一步自回归预测。


论文链接:

https://arxiv.org/pdf/2307.05222.pdf

模型链接:

https://github.com/baaivision/Emu

Demo链接:

https://emu.ssi.plus/


作为一种通用界面,Emu可用于多种视觉、语言应用



超越 Flamingo、Kosmos,8项基准测试表现优异

在8个涵盖多模态图像/视频和语言任务的基准测试中,Emu 均有不俗表现,对比来自DeepMind 的 Flamingo 与来自微软的 Kosmos 亦有所超越。


Emu 在众多常用测试基准上表现出极强的零样本性能,展现了模型在遇到未知任务时强大的泛化能力。其中,Emu 在图像描述 COCO Caption 的 CIDEr 得分为112.4,且模型对图片的描述中包含丰富的世界知识。此外,Emu在图像问答 VQAv2 和视频问答 MSRVTT 数据集上也展现了强劲的视觉问答功能。


表1 Emu和Emu-I(Emu-I是经过指令调整的Emu模型)的多模态理解性能


同时,Emu具备强大的少样本上下文学习能力,即对于给定任务提供几个示例样本,模型可以进行上下文学习从而更好地完成任务。Emu在视觉问答数据集 VQAv2、VizWiz、MSRVTTQA上的少样本上下文学习表现突出。

 

表2 在few-shot (k = 2,4,8)推理设置下,Emu在图像问答和视频问答任务中的表现



全能高手:在多模态序列中进行「图文任意模态生成」


Emu模型能力覆盖图像与文本的生成及视频理解, 相比其他多模态模型更具通用性,能完成任意图生文以及文生图的多模态任务。例如,精准图像认知、少样本图文推理、视频问答、文图生成、上下文图像生成、图像融合、多模态多轮对话等。
 
Emu是一个基于 Transformer 的多模态基础模型,可以接受并处理形式各异的多模态数据,输出指定的多模态数据。从图文对、图文交错文档、交错视频文本等形式各异的海量多模态序列中进行学习与训练后,Emu能对任意形式的多模态上下文序列进行多模态补全,对图像、文本和视频等多种模态的数据进行感知、推理和生成。


视频理解、多模态上下文生成、多模态对话是 Emu 模型的技术亮点。


Emu 模型具有强大的视频理解能力,如在下图演示中,针对下面“视频中的女主人公在干什么”这一问题,Emu 模型给出了具有精准事实细节(苹果VR设备)、连贯动作描述(坐在飞机上并使用VR设备)、合理行动猜测(可能在看一段视频或360度视角的飞机外景象)的丰富回答。


 

Emu 不只能理解视频信息,还能做到对视频中时序信息的精细理解。例如下图展示的奶昔制作视频,Emu 分步且完整地描述了奶昔制作步骤。



Emu 新增了图像融合能力,可以对输入的图像进行创造性地融合,并生成新的图片。例如下图最后一行,将两幅世界名画作为输入,Emu 可以生成风格、元素类似的全新画作:



上下文图像生成也是一项全新的功能,Emu 可以将输入的文本-图片对作为 prompt,结合上下文信息进行图片生成。例如,如果输入图1、图2两张图片,并输入文本指令让Emu 生成以图1的动物为中心,但以图2为风格的图片。依赖于强大的多模态上下文生成能力,Emu可以完成相应的指令。下图的第一行展示了如果在“文生图”时提供了context,Emu 会结合context 的风格,生成油画风格的图片,而相同的文本在无context 的情况下进行“文生图”只会生成现实风格的图片:



图像生成方面,Emu 可以根据给定的文本生成多幅语义相关的图像:


 

Emu 可根据一张或者多张图或视频进行问答和多轮对话。如下第一张图所示,给出一张景点图并询问旅游注意事项,Emu 给出了5个要点,其中再就第5个要点 “ safety equipment”提问时,Emu 能够针对这一点进行更加详细地阐述。最后,Emu 还可以根据图片作诗。



Emu 还有一项突出的能力是它的世界知识更丰富。如下图所示,给出两张动物的图,询问这两张图的区别,Emu 可以准确描述动物的名称及分布地:



Emu 模型可以准确识别画作,例如下图输入莫奈的《日出·印象》这幅作品, Emu 不仅准确回答出了作品的名字,描述了画面信息,还给出了很多背景知识,例如这是著名印象派风格的作品。而 mPLUG-Owl 、LLaVA 并不知道画作的名称,只是简单描述了画中场景。InstructBLIP 给出了作品名称和描述,但在背景知识上略逊于 Emu。



再看下图,给出阿加莎·克里斯蒂的肖像,问题是“说出这位女性写的8本书并推荐一本给我”,Emu 正确理解了这个问题,识别出作者并列出其8个作品,并从中挑选了伟大的代表作推荐。LLaVA 人物识别准确,只部分理解了题意,给出推荐作品,但并没有给出8个代表作。mPLUG-Owl  识别出了人物 ,也是部分理解了问题,只给出了4部作品和一句话简介。InstructBLIP 则给出了一个错误答案。




首次大量采用视频数据,创新性建立统一多模态学习框架


多模态大模型( LMM )成为新晋研究热点,现有工作常将大语言模型与预训练视觉编码器连接来构建多模态大模型。

尽管现有的 LMMs 很有效,但主要以预测下一个文本 token 作为训练目标,而对视觉模态缺乏监督。这样的训练目标也限制了模型在推理应用时只能输出文本回复,而不具有生成图片回复的能力。


此外,数据直接影响到模型的搭建,视频数据正愈来愈成为图像信息时代的主要信息形态。带有交错图像字幕的视频数据,相比于图文交错文档,天然包含更密集的视觉信号,且与文本编码有更强的跨模态关联性。而现有工作主要利用图像-文本对及图文文档进行训练,对视频数据有所忽略。


如何把海量多模态数据包括视频数据纳入一个更加「统一」的多模态学习框架,从而提升多模态大模型的通用性,智源视觉团队解决了几个重要问题:


1. 对不同来源的多模态交错数据进行处理,以自动回归的方式统一建模。


智源视觉团队采用的多模态交错数据具体包括图像-文本对 (LAION-2B、LAION-COCO)、交错图像-文本数据 (MMC4)、视频-文本对 (Webvid-10M) 和交错视频-文本数据 (YT - temporal - 1b),将视觉表征与文本序列共同构成多模态序列,并进行统一的自回归建模。


Emu以自动回归的方式统一了不同模态的建模


2. 特别地,Emu 首次采用了海量视频作为图文交错序列数据


视频训练数据源自研究团队从YouTube上收集的1800万个视频(非原始视频,故事板图像)及其相应的字幕,二者结合创造了一个按时间戳顺序排序的视频和文本的自然交错序列。


 交错的视频-文本数据

 

3. 预测多模态序列的下一个元素。


模型训练方面,Emu将自回归地预测多模态序列中的下一个元素(既包含文本也包含图像)作为统一的学习目标进行预训练。在这种不同形式的数据、统一形式的目标下完成训练后。Emu便成为了一个“通才”模型,可以轻松应对各种多模态任务,包括图生文以及文生图。








您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存